Jeg skriver i øjeblikket en grundlæggende parser for en XML-smag. Som en øvelse implementerer jeg en LL-tabeldrevet parser. Dette er mit eksempel på BNF-grammatik: % token navn datastreng %% / * LL (1) * / doc: elem elem: "<" open_tag open_tag: navn attr close_tag close_tag: ">" elem_or_data "" name ">" | "/>" ; elem_or_data: "<" open_tag elem_or_data | data elem_or_data | / * epsilon * / ; attr: navn ":" streng attr | / * epsilon * / ; Er denne grammatik korrekt? Hver terminal bogstavelig er mellem anførselstegn. De abstrakte terminaler er angivet med% token. Jeg koder en håndskrevet lexer for at konvertere mit input til en tokensliste. Hvordan ville jeg tokenisere de abstrakte terminaler?
2021-03-03 08:10:37
Den klassiske tilgang ville være at skrive et regulært udtryk (eller en anden genkender) for hver mulig terminal. Hvad du kalder "abstrakte" terminaler, som er helt konkrete, er faktisk terminaler, hvis tilknyttede mønstre genkender mere end en mulig inputstreng. Den streng, der faktisk er genkendt (eller en eller anden beregnet funktion af den streng), skal sendes til parseren som symbolets semantiske værdi. Nominelt kører tokeniseren på hvert punkt i inputstrengen alle genkendere og vælger den der har den længste match. (Dette er den såkaldte "maksimale munch" -regel.) Dette kan normalt optimeres, især hvis alle mønstre er regulære udtryk. (F) lex vil f.eks. Gøre den optimering for dig. En komplikation i din sag er, at tokenisering af dit sprog er kontekstafhængig. Især når målet er elem_or_data, er de eneste mulige tokens <, og "data". Inden i et tag er "data" imidlertid ikke muligt, og "navn" og "streng" tags er mulige (blandt andre). Det er også muligt, at værdien af en attribut kan have den samme leksikale form som nøglen (dvs. et navn). I selve XML skal attributværdien være en citeret streng, og brugen af en ikke-citeret streng vil blive markeret som en fejl, men der er bestemt "XML-lignende" sprog (såsom HTML), hvor attributværdier uden hvidt mellemrum kan indsættes ikke citeret. Da den leksikale analyse afhænger af konteksten, skal den leksikale analysator sendes (eller have adgang til) et yderligere stykke information, der definerer den leksikale kontekst. Dette er normalt repræsenteret som en enkelt optællingsværdi, som kan beregnes baseret på de sidste par tokens, der er returneret, eller baseret på det FØRSTE sæt i den aktuelle parserstak. 2 | Dit svar StackExchange.ifUsing ("editor", funktion () { StackExchange.using ("externalEditor", funktion () { StackExchange.using ("uddrag", funktion () { StackExchange.snippets.init (); }); }); }, "kodestykke"); StackExchange.ready (funktion () { var channelOptions = { tags: "" .split (""), id: "1" }; initTagRenderer ("". split (""), "" .split (""), channelOptions); StackExchange.using ("externalEditor", funktion () { // Skal redigere editoren efter uddrag, hvis uddrag er aktiveret hvis (StackExchange.settings.snippets.snippetsEnabled) { StackExchange.using ("uddrag", funktion () { createEditor (); }); } andet { createEditor (); } }); funktion createEditor () { StackExchange.prepareEditor ({ useStacksEditor: falsk, heartbeatType: 'svar', autoActivateHeartbeat: false, convertImagesToLinks: sand, noModals: sandt, showLowRepImageUploadWarning: true, reputToPostImages: 10, bindNavPrevention: true, postfix: "", imageUploader: { brandingHtml: "Drevet af \ u003ca href = \" https: //imgur.com/ \ "\ u003e \ u003csvg class = \" svg-icon \ "width = \" 50 \ "height = \" 18 \ "viewBox = \ "0 0 50 18 \" fill = \ "none \" xmlns = \ "http: //www.w3.org/2000/svg \" \ u003e \ u003cpath d = \ "M46.1709 9.17788C46.1709 8.26454 46.2665 7.94324 47.1084 7.58816C47.4091 7.46349 47.7169 7.36433 48.0099 7.26993C48.9099 6.97997 49.672 6.73443 49.672 5.93063C49.672 5.22043 48.9832 4.61182 48.1414 4.61182C47.4335 4.61182 46.7256 4.916 43.1481 6.59048V11.9512C43.1481 13.2535 43.6264 13.8962 44.6595 13.8962C45.6924 13.8962 46.1709 13.2535 46.1709 11.9512V9.17788Z \ "/ \ u003e \ u003cpath d = \" M32.492 10.1419C32.44.064.014 12.6 41.5985 12.6954 41.5985 10.1419V6.59049C41.5985 5.28821 41.1394 4.66232 40.1061 4.66232C39.0732 4.66232 38.5948 5.28821 38.5948 6.59049V9.60062C38.5948 10.8521 38.2696 11.5455 37.0451 11.545.5 521 35.4954 9.60062V6.59049C35.4954 5.28821 35.0173 4.66232 34.0034 4.66232C32.9703 4.66232 32.492 5.28821 32.492 6.59049V10.1419Z \ "/ \ u003e \ u003cpath fill-rule = \" evenodd \ "clip-rule = \" evend = \ "M25.6622 17.6335C27.8049 17.6335 29.3739 16.9402 30.2537 15.6379C30.8468 14.7755 30.9615 13.5579 30.9615 11.9512V6.59049C30.9615 5.28821 30.4833 4.66231 29.4502 4.66231C28.9913.410.56 4.9623 4.6623 .1369 4.56087 21.0134 6.57349 21.0134 9.27932C21.0134 11.9852 23.003 13.913 25.3754 13.913C26.5612 13.913 27.4607 13.4902 28.1109 12.6616C28.1109 12.7229 28.1161 12.7799 28.121 12.8346C28.125 12.222.230 15.2321 24.1352 14.9821 23.5661 14.7787C23.176 14.6393 22.8472 14.5218 22.5437 14.5218C21.7977 14.5218 21.2429 15.0123 21.2429 15.6887C21.2429 16.7375 22.9072 17.6335 25.6622 17.6335Z24.124 27.2119 7.09766 28.0918 7.94324 28.0918 9.27932C28.0918 10.6321 27.2311 11.5116 26.1024 11.5116C24.9737 11.5116 24.1317 10.6491 24.1317 9.27932Z \ "/ \ u003e \ u003cpath d = \" M16.8045 11.95129.66.280.24513.8962C19.3298 13.8962 19.8079 13.2535 19.8079 11.9512V8.12928C19.8079 5.82936 18.4879 4.62866 16.4027 4.62866C15.1594 4.62866 14.279 4.98375 13.3609 5.88013C12.653 5.05154 11.6581 4.62866 728669.3328 13.9157 13.2535 13.9157 11.9512V8.90741C13.9157 7.58817 14.3365 6.91179 15.4269 6.91179C16.4027 6.91179 u .31675 5.28821 2.83866 4.66232 1.82471 4.66232C0.791758 4.66232 0.313354 5.28821.213351 13.2535 3.316 75 11.9512V6. Z \ "fill = \" # 1BB76E \ "/ \ u003e \ u003c / svg \ u003e \ u003c / a \ u003e", contentPolicyHtml: "Brugerbidrag licenseret under \ u003ca href = \" https: //stackoverflow.com/help/licensing \ "\ u003ecc by-sa \ u003c / a \ u003e \ u003ca href = \" https://stackoverflow.com / legal / content-policy \ "\ u003e (content policy) \ u003c / a \ u003e", allowUrls: sandt }, onDemand: sandt, discardSelector: ".discard-answer" , straksShowMarkdownHelp: true, enableTables: true, enableSnippets: true }); } }); Tak for dit bidrag til Stack Overflow! Sørg for at besvare spørgsmålet. Giv detaljer og del din forskning! Men undgå ... At bede om hjælp, afklaring eller svar på andre svar. At afgive udsagn baseret på mening; Sikkerhedskopier dem med referencer eller personlig erfaring. For at lære mere, se vores tip til at skrive gode svar. Kladde gemt Udkast kasseret Tilmeld dig eller log ind StackExchange.ready (funktion () { StackExchange.helpers.onClickDraftSave ('# login-link'); }); Tilmeld dig ved hjælp af Google Tilmeld dig via Facebook Tilmeld dig ved hjælp af e-mail og adgangskode Indsend Send som gæst Navn E-mail Påkrævet, men aldrig vist StackExchange.ready ( funktion () { StackExchange.openid.initPostLogin ('. New-post-login', 'https% 3a% 2f% 2fstackoverflow.com% 2fquestions% 2f54745855% 2ftokenize-abstract-terminals-in-ll-grammar% 23new-answer', 'question_page' ); } ); Send som gæst Navn E-mail Påkrævet, men aldrig vist Send dit svar Kassér Ved at klikke på "Send dit svar" accepterer du vores servicevilkår, fortrolighedspolitik og cookiepolitik Er det ikke det svar, du leder efter? Gennemse andre spørgsmål med tagget parsing lexer bnf ll rekursiv afstamning eller still dit eget spørgsmål.